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大 数据 环境 中 交互 式 查 询 差分 隐私 保护 模型 
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(上 海 理工 大 学 光电 信息 与 计算 机 工程 学 院 ， 上海 200093) 


摘 要 : 随 着 大 数据 时 代 的 到 来 ， 数 据 挖 据 技 术 被 广泛 应 用 ， 而 线性 查询 作为 该 技术 中 最 基础 和 最 频繁 的 操作 ， 其 隐 
私 保护 在 数据 分 析 和 数据 发 布 隐私 保护 中 占有 极其 重要 的 位 置 。 交 互 式 线性 查询 的 交互 增加 了 数据 的 处 理 量 ， 运 用 传 
统 的 隐私 保护 模型 效率 较 低 。 为 了 解决 大 数据 环境 中 交互 式 查询 差分 隐私 保护 问题 ， 模 型 针对 大 规模 数据 集中 交互 式 
线性 查询 差分 隐私 保护 的 特点 ， 通 过 数据 关联 性 分 析 减 少 宛 余 信 息 ， 采 用 交替 方向 乘 子 法 对 查询 负载 矩阵 进行 分 解 ， 
利用 自 适 应 加 噪 技术 产生 差分 隐私 保护 所 需要 的 合理 数量 的 噪声 ， 设 计 并 行 处 理 方法 实现 该 模型 的 计算 。 实 验 将 提出 
的 模型 与 以 往 模型 进行 对 比 。 结 果 表 明 ， 所 提出 的 模型 在 提升 隐私 保护 精度 的 同时 ， 也 极 大 地 提高 了 算法 性 能 ， 因 此 
模型 切实 可 行 。 
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Interactive queries differential privacy protection model in big data environment 


Wang Di, Yuan Jian, Shen Zeyu 
(School of Optical Electrical& Computer Engineering, University of Shanghai for Science& Technology, Shanghai 200093, 
China) 


Abstract: With the arrival of the era of big data, data mining technology is widely used, and the most basic and frequent 
operation of the technology, linear query, whose privacy protection occupies an extremely important position in data analysis 
and data release privacy protection. The data processed become more when querying in an interactive linear queries way, and it 
is less efficient when using the traditional privacy protection models. In order to solve the problem of differential privacy 
protection for interactive queries in big data environment, the model reduced the redundant information through data correlation 
analysis, decomposed the query load matrix by adopting alternating direction multiplier method, produced a reasonable amount 
of noise required for differential privacy protection using the adaptive noise injection technology, and a parallel processing 
method designed calculated it against the characteristics of interactive linear query differential privacy protection for large-scale 
data set. Experiment compared the model proposed to previous works. The result showed that the model proposed promoted the 
accuracy of privacy protection and algorithm performance greatly. Therefore, the model is feasible. 

Key words: linear query; differential privacy; Matrix mechanism; frequent pattern mining; alternating direction multiplier 
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最 优 的 做 法 是 先 响 应 9 和 q3， 然 后 利用 其 结果 之 和 来 区 
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交互 式 查 询 系统 中 ， 用 户 的 查询 数据 具有 相关 性 ， 故 而 存 
在 大 量 的 数据 见 余 。 关 联 性 分 析 去 除 用 户 查 询 数据 中 的 关联 数 
据 可 以 降低 元 余数 据 。 该 方法 在 大 规模 数据 处 理 中 效率 显著 。 
另外 ， 在 交互 式 查 询 中 ， 用 户 希 望 系统 能 快速 响应 查询 请 求 ， 


阵 进行 数据 无 关 性 处 理 ， 


响应 速度 , 其 次 结合 交 蔡 方向 乘 子 法 实现 分 布 式 负载 矩阵 分 解 ， 


Chi 


大 数据 环境 中 交互 式 


naX 
查 


大 数据 环境 中 交互 式 查询 差分 隐私 保护 模型 概述 


同时 采用 并 行 算 法 提高 交互 式 系统 


斯 加 噪 ， 


最 后 自 适应 选取 * 值 实现 拉 普 拉 
性 还 原 ， 返 回 完 整 的 查询 结果 。 


将 原 去 除 的 数据 


IQDPPBD 模型 如 图 


a) 4 


于 关联 性 分 析 的 数 1 


1 所 示 ， 主 要 包括 三 个 子 模型 : 


的 


= 


可 
[ES 


由 | 


居 无 关 性 处 理 模 型 (data- 


independent processing model based on correlation analysis ， 


DPMCA) ; 
b) 


decomposition model, 


行 梯 度 下 降 和 矩阵 分 解 模 型 (parallel gradient matrix 
PGMDM ; 


c) 基 于 差分 隐私 的 自 适 应 加 噪 模型 (adaptive noise model 
based on differential privacy, ANMDP) 。 


ee eee 


属性 频 度 
降序 排列 


隐私 保护 模型 (QDPPBD) 工 作 流 程 廊 


数据 查询 
结果 集 


(Ss SSS SSS SSS Sy 


IQDPPBD 模型 的 工作 流程 如 下 : 


a) 查询 数据 集 。 
b) 采用 


图 1 大 数据 环境 中 交互 式 查 询 差分 


DPMCA 模型 ， 计 算 负载 矩阵 数据 之 间 的 关联 性 


E s 


故 需 设计 良好 的 算法 来 提高 交互 式 系统 的 响应 速度 。 为 此 ， 需 通过 设 定 最 小 支持 度 ， 选 取 关 联 性 来 消除 负载 矩阵 之 间 的 数 
要 对 查询 数据 进行 并 行 处 理 ， 从 而 节省 数据 的 处 理 时 间 ， 提 高 。 据 相关 性 。 
交互 式 系统 的 响应 速度 。 然 而 ， 隐 私 保护 和 数据 可 用 性 往往 不 c) XH PGMDM 模型 , 通过 对 数据 无 关 的 负载 矩阵 进行 分 
可 兼 得 ,针对 隐私 保护 ,添加 拉 普 拉 斯 噪声 实现 差分 隐私 保护 ; 草 。 并 行 执行 矩阵 分 解 算法 ， 将 由 批 查询 数据 组 成 的 负载 矩阵 
针对 数据 可 用 性 ， 首 先 结合 e 的 上 界 和 用 户 的 特点 选择 差分 隐 ”进行 分 解 
私 保护 中 恰当 的 = 值 ， 然 后 通过 减少 添加 噪声 的 数量 来 提高 数 d) 采 用 ANMDP 模型 ,对 L 和 DD 添加 拉 普 拉 斯 噪声 ， 实 现 
据 可 用 性 。 综 合 考虑 以 上 的 一 系列 问题 ， 本 文 提出 了 大 数据 环 ”数据 集 的 差分 隐私 保护 。 其 中 工 表示 负载 矩阵 分 解 结果 ，D 表 
境 中 交互 式 查 询 差分 隐私 保护 模型 。 示 数 据 集 。 
e) 将 查询 后 的 添加 了 噪声 的 结果 返回 给 用 户 。 


chinaXiv 合 作 期 刊 
录用 稿 王 迪 ， 等 ; 大 数据 环境 中 交互 去 查询 益 分 隐私 保护 模型 
3.2 ”基于 关联 性 分 析 的 数据 无 关 性 处 理 模型 DPMCA 3.3 ”并 行 梯度 下 降 矩 阵 分解 模 型 PGMDM 

1) FP-growth 算法 概述 分 析 交 互 式 查 询 系 统 的 特点 ， 发 现 其 数据 量 大 ， 查 询 回 合 


ps 
7 


FP-growth 算法 由 Han 等 人 首次 提出 RI， 该 算法 为 了 减少 多 ， 因 此 要 求 查询 算法 收敛 速度 快 ， 单 词 查 询 时 间 短 。 本 文 妇 
对 原 数据 集 的 读 取 次 数 及 候选 频繁 项 集 的 个 数 , 提高 挖掘 效率 ， 于 交替 方向 乘 子 法 (alternating direction method of multipliers, 
以 共享 前 级 的 方式 在 内 存 中 构造 FP-tree 来 对 原始 数据 集 进 行 ADMM) 和 低 秩 机 制 提出 PGMDM 模型 , 用 来 提高 差分 隐私 矩 
深度 压缩 。 构造 FP-tree 之 后 , 频繁 项 集 的 挖掘 就 可 以 在 内 存 中 阵 分 解 的 效率 。 


U 


aur 


利用 FP-tree 采用 频繁 项 目 增长 的 方式 进行 , 这 是 减少 读 取 次 数 交互 式 查 询 系统 中 ， 用 户 查 询 为 批量 线性 查询 ， 属 于 统计 
和 候选 频繁 项 集 的 个 数 的 关键 技术 。 学 习 问 题 之 一 。 它 首先 把 通过 初始 查询 结果 构建 的 负载 矩阵 易 
2) DPMCA 模型 描述 除 ， 然 后 根据 DPMCA 模型 得 出 的 数据 无 关 属 性 得 到 无 关 负 载 
数据 集中 有 许多 隐藏 的 数据 关联 模式 ， 利 用 FP-growth 算 JERE, 最 后 再 进行 矩阵 分 解 。 利 用 YuanP3l 等 人 提出 的 低 秩 机 制 


法 挖掘 出 这 种 关联 模式 ， 通 过 挖掘 出 的 关联 模式 去 除 查 询 数 据 


R (5) (6) 分 别 计算 分 解 和 E 阵 B 和 6 相对 于 工 的 梯度 2 。 


中 的 元 余数 据 。 
B=(BWL +21 (BLU +1)! (5) 
ôG T T T 
T BB' BL- BB'W -B'r (6) 


属性 频 度 排序 


其 中 B 和 分 别 表 示 对 负载 矩阵 W 分 解 矩阵 后 的 两 个 矩阵 。 式 
(5) 用 来 更 新 B ， 且 8 的 计算 只 与 工 的 更 新 有 关 。 

该 模型 结合 矩阵 的 特性 ， 将 负载 矩阵 分 解 成 多 个 矩阵 ， 
分 发 到 各 个 节点 上 计算 。 其 过 程 如 图 3 所 示 。 


大 于 最 小 支 
持 度 ? 


是 
构建 FP-tr 
7 
建立 初始 负载 矩阵 
生成 各 路 径 前 级 叶子 节点 为 
咯 径 集合 路 径 ? 建立 无 关 负 载 矩 阵 
Map 过 程 一 一 
分 解 负载 矩 阵 
$ $ 
' 节点 1 节点 n 
生成 前 级 路 径 集 | 计算 Bp ,= 计算 Bp,r 


T<0.001& 
B>1000 


数据 的 关联 属性 


: : 
| 结果 : B Li 


T<0.001& 
B>1000 


结果 : Bn L 
2 基 Se TBE ME ZA EE fe F 让 人 TILL 
于 关联 性 分 析 的 数据 Feie | | 
无 关 性 处 理 模型 (DPMCA) 描 述 示意 图 i ZAB, L 


模型 描述 如 下 a C = a 


a) 对 数据 集 进 行 扫描 ， 得 出 每 一 个 属性 的 频 度 ， 按 照 属性 

sete 图 3 ”并行 梯度 下 降 矩 阵 分 解 模 型 PGMDMD) 描 述 示意 
频 度 进行 降序 排列 ， 得 到 属性 频 度 降序 列表 。 

b) 设 定 最 小 支持 度 己 ， 根 据 数据 属性 频 度 降序 列表 ， 筛 选 模型 的 描述 如 下 : 
掉 频 度 小 于 最 小 支持 度 的 属性 。 a) 根据 用 户 的 查询 要 求生 成 初始 结果 负载 矩阵 。 

c) 构建 FP-treeP20。 将 排 好 序 的 数据 集 插入 到 前 级 树 中 ， 构 b) 根据 DPMCA 模型 得 出 的 关联 属性 对 负载 矩阵 进行 初始 
成 FP-tree。 同 时 对 第 一 次 出 现 的 节点 建立 链表 。 化 处 理 ， 将 初始 负载 矩阵 中 关联 数据 进行 转换 剔除 生成 无 关 负 

d) 用 FP-Growth 算法 对 FP-tree 进行 整理 。 载 矩阵 。 

e) 如 果 叶子 节点 为 单 路 径 ， 去 除 叶 子 节点 ， 生 成 前 组 路 径 c) 对 无 关 负 载 矩 阵 分 解 以 便 并 行 处 理 。 将 无 关 负 载 矩 阵 
的 集合 ,进入 Step6。 如 不 为 单 路 径 ， 生 成 各 路 径 前 级 路 径 的 集 


W incr 分 解 成 4 部分， 每 一 部 分 行 数 为 » WRAY. n 为 分 布 


合 ， 构 成 一 个 新 的 FP-tree， 返 回 d). 
f) 获取 生成 的 前 级 路 径 的 集合 ， 即 为 查询 记录 的 关联 属性 。 式 系 统 的 节点 数 。 
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引入 分 布 式 计算 的 Map 过 程 : 首先 访问 数据 集 ， 


令 value 为 数据 中 
数据 ， 形 成 待 处 至 
Fes 


d) 在 每 个 节点 上 计算 分 解 因子 , 并 更 新 8 A= |W -BL 。 


里 的 数据 。 


将 划分 过 的 部 分 ， 


的 二 行 数据 。 Combiner 过 程 : 聚合 


遍历 每 一 


My 记录 行 号 工 , 然后 对 输出 的 key 值 取 整 作为 分 组 号 E, 


每 组 中 的 


分 发 到 对 个 节点 


lik 


b) 利用 拉 普 
c) 将 去 掉 的 
d) 返回 给 用 


结果 
实验 从 数据 


实验 


和 MMP22 模型 。 


拉 
数据 无 关 的 属 
户 查 询 结果 。 


与 分 析 


可 


性 和 算法 
实验 采 


性 能 


inaX iver 


斯 机 制 史 对 Zz, D 添加 满足 < 的 噪声 。 
性 进行 还 原 。 


9 度 对 比 IQDPPBD LRM! 


用 Frequent Itemset Mining Data 


RK SSR KS SS 


模型 的 描述 


2d 


基于 差分 隐私 的 


结束 结束 


自 适 应 加 


噪 模型 (ANMDP) 描 述 示意 区 


如 下 : 


一 D)Ad 、 
oe 4 计算 出 = 


WEF, 


结合 月 


H 


户 的 权限 选择 


度 , 本 实验 引入 欧 氏 距离 。 传统 的 隐私 保护 算法 
而 IQDPPBD 模型 


定 添加 的 噪声 量 ， 


于 自 适 


度 , 从 而 得 出 查询 结果 的 精确 


1.0, 0.75 和 0.5, 
对 应 较 低 权限 用 


需要 说 明 的 是 


距离 表达 式 ， 如 
越 小 ， 


其 中 : 为 表示 第 一 条 查询 结果 的 第 i 个 属性 
查询 结果 的 第 i 个 属 怕 


噪声 干扰 越 小 ， 


AB, «© 的 


户 


前 两 
。 男 外 ， 查 


询 


应 添加 噪声 ， 这 就 需要 针对 不 同 的 © 值 测 量 噪声 
度 。 本 实验 将 = 分 


与 此 不 同 ， 其 关键 技术 在 


B 大 于 1000 且 7 小 于 0.001 时 停止 迭代 。 RepositoryB0 的 webdocs 数据 集 ， 该 数据 集 每 条 记录 代表 顾客 
引入 云 计 算 中 的 Reduce WH: 将 各 节点 计算 出 的 58,5 以 的 购买 行为 ， 把 顾客 购买 的 一 个 商品 作为 一 个 数据 项 。 选 取 其 
中 160, 000 条 数据 作为 原始 数据 集 ,， 随机 生成 mm 个 批 查询 ,为 
及 组 号 工 写 入 云 计 算 的 Reduce 过 程 实现 整合 。 将 相同 组 号 的 
ae ee ee E 了 验证 并 行 性 同时 考虑 可 扩展 性 ， 采 用 分 布 式 集群 验证 实验 。 
L 按 行 号 进行 拼接 ， 得 到 完整 的 L。 常用 的 分 布 式 集群 实验 平台 主要 有 MPI 和 Hadoop, 但 由 于 MPI 
3.4 基于 差分 隐私 的 自 适 应 加 噪 模型 ANMDP 存在 节点 失效 ， 网 络 通信 故障 等 问题 ， 本 实验 选用 开源 的 
差分 隐私 的 定义 可 知 要 满足 差分 隐私 ， 必 须 添加 符合 拉 Hadoop 来 实现 IQDPPBD， 并 用 算法 的 运算 时 间 来 衡量 算法 性 
普 拉 斯 分 布 的 噪声 。 然 而 ， 数 据 灵 敏 度 高 ， 直 接 增加 噪声 会 导 能 。 本 实验 模型 用 java 语言 实现 。 由 于 差分 隐私 添加 噪声 具有 
致 数据 不 可 用 B1， 所 以 需要 寻求 一 种 合适 的 加 噪 方法 。 而 隐私 定 的 随机 性 , 最 终结 果 取 20 次 实验 结果 的 平均 值 。 实 验 单机 
保护 程度 取决 于 差分 隐私 中 。 的 选取 ，= 越 小 隐私 保护 程度 越 环境 为 Inter(R) Core(TM)i7CPU 3.4GHz, 8GB 内 存 ，window7 
强 但 添加 的 噪声 量 越 大 ， = 越 大 隐私 保护 程度 越 弱 且 添加 的 噪 操作 系统 ， 分 布 式 环境 如 表 1 所 示 。 
声 越 少 。 因 此 ， 选 取 合理 的 :将 有 助 于 兼顾 隐私 保护 程度 和 品 表 1 软 硬 件 配置 表 
声 量 。ANMDP 模型 在 考虑 s KER e p)Aq 的 情况 下 结 Host IP OS CPU Memory JDK 
Master 192.168 CentOS 双核 2G JDK 1.8.0 
万 添加 拉 普 拉 斯 噪声 。 其 中 ， 用 户 的 权限 越 高 * 的 选取 越 接近 Slaver 192.168 CentOS 双核 2G JDK 1.8.0 
上 界 ， 权 限 越 低 选取 的 = 越 小 。 4 1.101 70 1.8GHz an 
Slaver 192.168 CentOS 双核 2G JDK 1.8.0 
开始 开始 
2 1.102 7.0 1.8GHz _111 
| | Slaver 192.168 CentOS 双核 2G JDK 1.8.0 
l } } | EEDAN -3 1.103 7.0 1.8GHz 111 
数据 集 D 数 据 集 D 矩阵 分 解 结果 à = 
{ | ee 
4.1 实验 评价 指标 
TUE Lite 1) 数据 可 性 
计算 噪声 上 界 g rn ar n 
为 了 衡量 噪声 的 干扰 程度 ， 并 以 此 得 出 查询 结果 的 精确 程 


j- [22,23 


需 事 先 指 


声 干扰 程 
别 设置 为 1.25， 


项 对 应 较 
规模 m 设 


户 


局 权限 用 户 , 后 两 项 
为 5000 条 。 


欧 氏 距离 
式 (7) 所 示 ， 


KE» 


d= OG = Fo) 
V4 


E {EL o 


CL WRO 是 两 点 或 多 点 之 间 
距离 值 d 越 小 说 明 与 原 数据 差别 
查询 精确 度 越 高 。 


E 值 ， Xak 表示 第 二 条 
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2) 算法 | 
为 了 保 订 


通过 计算 算法 提交 和 


从 而 比较 模型 


DPMCA 过 程 可 以 独立 运行 ，DPMCA 
当 查 询 规模 m 大 于 20000 时 ， 传 统 模型 无 法 在 
时 间 内 收敛 ， 故 分 别 设置 查询 规模 m 为 5000，8000 和 
结果 分 析 


时 间 间 隔 。 


4.2 实验 


I 


生 能 
FE 网 络 时 延 的 一 致 性 ,实验 在 相同 网 络 环境 下 进行 。 
的 时 间 间 隔 ， 来 对 
越 短 ， 说 明 模型 性 能 越 好 。 
时 间 未 


EAE o 


结果 返 区 
间隔 时 间 


1) 数据 无 关 性 分 析 


进行 比较 ， 

F 
计 入 实验 所 需 的 
效 
10000。 


2 
,ChinaXiv 期 和 
Z 迪 ， 等 : 大 数据 环境 中 交互 式 查询 差分 隐私 保护 模型 
300 5299 
250 
200 91187 183 
121 149 
150 117 
100 
50 
0 
100 200 5000 8000 10000 
m IQDPPBD LRM EMM 
图 5 算法 性 能 直方 图 


通过 关联 性 分 析 以 及 设置 不 同 的 最 小 支持 度 ， 可 以 得 出 如 由 图 5 可 以 看 出 ， 当 查询 规模 分 别 为 5000，8000，10000 
表 2 的 结果 。 时 , 本 文 提出 的 IQDPPBD 模型 的 性 能 均 优 于 LRM? MMP” 
表 2 数据 无 关 性 分 析 表 模型 .而 当 查 询 规模 为 100,200 时 ,IQDPPBD 模型 性 能 比 LRM 
最 小 支持 度 数据 集 包含 的 项 数据 无 关 处 理 后 的 项 和 MM #2. 其中, 图 5 中 的 横 坐 标 表 示 查 询 规模 m ， 纵 坐标 表 
jas J ig 示 运 行 时 间 (单位 s) ， 用 来 衡量 算法 性 能 。 
ae 3 T 以 上 实验 结果 表明 ，IQDPPBD 模型 可 以 自 适应 添加 噪声 。 
tö a ae 同时 ， 当 查询 规模 较 大 时 ， 算 法 性 能 较 已 有 模型 有 很 大 提高 ; 
i5 m 21 当 查 询 规 模 较 小 时 ， 由 于 提出 的 模型 对 数据 进行 关联 处 理 的 时 
间 相 对 查询 时 间 而 言 较 长 ， 导 致 其 性 能 没有 传统 模型 好 。 因 此 
表 2 可 以 看 出 ， 经 过 数据 无 关 处 理 后 ， 数 据 集 的 规模 得 。 IQDPPBD 模型 可 以 满足 大 数据 集中 交互 式 线性 查询 隐私 保护 
到 了 有 效 的 减少 ， 会 使 之 后 的 矩阵 分 解 的 计算 量 以 及 噪声 的 添 。 对 系统 响应 和 扩展 性 的 严格 要 求 。 
加 量 减少 。 
D 数据 可 用 性 实验 结果 ( 欧 氏 距离 
表 3 数据 可 用 性 实验 结果 表 在 大 规模 数据 集中 ， 线 性 查询 操作 最 基础 且 最 频繁 ， 交 互 
E IQDPPBD LRM MM 式 批 量 线性 查询 是 线性 查询 的 一 种 方式 ， 由 于 其 比 普 通 的 线性 
= m ion ia 查询 更 难 泄 密 且 查询 效率 较 高 而 被 频繁 使 用 ， 但 己 有 的 隐私 保 
0.75 95 92 95 护 模 型 很 少 研究 对 交互 式 批 量 线性 查询 的 保护 ， 基 于 此 ， 本 文 
1 ee 79 83 提出 了 IQDPPBD 模型 。 该 模型 针对 交互 式 批量 线性 查询 提出 
1.25 66 65 70 了 隐私 保护 程度 、 数 据 可 用 性 以 及 隐私 保护 模型 效率 的 要 求 ， 
通过 挖掘 记录 属性 的 相关 项 ， 建 立 无 关 项 构建 的 负载 矩阵 ，) 
表 3 可 以 看 出 ， 由 于 采用 自 适应 模型 ， 低 权限 用 户 ” ADMM 模型 对 矩阵 的 求解 进行 优化 , 同时 采用 自 适 应 模型 进行 
IQDPPBD 的 查询 结果 精度 与 s 为 0.75 时 几乎 相当 ， 较 高 权限 。” 隐私 加 品 ， 实 现 了 差分 隐私 保护 。 实 验 采 用 webdocs 数据 集 ， 
用 户 与 :为 1.25 时 相当 。 结 果 表 明 ，IQDPPBD 模型 可 以 实现 。 运用 分 布 式 集群 验证 模型 的 并 行 性 和 可 扩展 性 ， 从 数据 可 用 性 
较 少 噪声 量 的 自 适应 添加 以 及 较 高 查询 精度 的 隐私 保护 。 和 模型 性 能 角度 对 比 IQDPPBD、LRMWI 和 MMI 模型。 结果 
3) 算法 性 能 实验 结果 (时 间 单 位 为 s) 表明 ,本 文 所 提出 的 模型 性 能 均 优 于 传统 隐私 保护 模型 。 男 外 ， 
表 4 算法 性 能 实验 结果 表 在 不 同 隐私 预算 s 下 ， 对 隐私 保护 度 以 及 数据 准确 率 进 行 评估 
IQDPPBD IRM i 比较 ， 证 明了 该 模型 的 可 行 性 。 在 未 来 的 工作 中 ， 可 以 考虑 将 
i P 3 3 线性 查询 记录 按 内 容 特点 进行 分 类 ， 以 便 针 对 不 同类 型 改进 模 
3 A 型 ， 在 进一步 保证 数据 准确 性 的 同时 优化 矩阵 机 制 的 性 能 ， 从 
zio sy t7 i 而 使 更 大 规模 的 数据 集 能 快速 收敛 。 该 模型 适用 于 对 大 规模 数 
8000 as igi 189 据 集 进行 交互 式 线性 查询 隐私 保护 ， 当 数据 集 较 小 时 ， 算 法 性 
‘6060 ind Jsi 260 能 反而 低 于 传统 模型 。 随 着 查询 规模 的 增加 ， 该 模型 的 性 能 更 
优 于 传统 模型 。 因 此 ， 在 下 一 步 的 工作 中 将 定量 分 析 数 据 规模 
由 表 4 可 以 看 出 ， 当 查询 规模 为 100，200，5000，8000， ”大 小 与 该 隐私 保护 模型 下 的 交互 式 线性 查询 效率 之 间 的 关系 。 
tap a 法 性 能 状况 ,其 中 , m 是 查询 规模 ,IQDPPBD 参考 文献 ; 
是 本 文 提出 的 模型 ，LRM 和 MM 是 传统 模型 。 
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